Técnicas para ‘Big Data’ en Economía - Curso 2024/25
Universidad de Alicante
Dpto. de Fundamentos del Análisis Económico. Universidad de Alicante
AED es una fase inicial importante, con dos objetivos:
Conocer nuestros datos e identificar problemas \(\Longrightarrow\) Preprocesamiento
Análisis descriptivo: identificar patrones y encontrar escenarios de análisis
NO hay una “receta”: el proceso es diferente con distintos datos o con los mismos datos para diferentes objetivos
Es un proceso iterativo para descubrir información
Contexto: conocimiento previo de nuestros datos, aquí o aquí
fuente (de dónde han salido), cómo están almacenados (.csv, .xlsx, …)
“diccionario”: información de cada variable (descripción, unidades, etc.)
Limpiar y procesar los datos para asegurar que son ordenados:
¿Tienen las variables la información y el tipo adecuado? Convertimos datos a factores, numéricas, etc.
Eliminar filas vacías, observaciones duplicadas
Renombrar variables (para mayor claridad), generar nuevas
Detectar inconsistencias en texto, fechas, unidades, etc.
Caso destacado: identificar NA
NAs al modelizar)La variación es la tendencia de los valores de una variable a cambiar entre medidas (p.e., educación de dos personas o ventas de dos empresas)
Las técnicas para analizar el patrón de variación, es decir, la distribución de valores, dependen del tipo de variable
Variables Categóricas (previamente convertidas a factores):
summary(), count(), table(), summarize(), mode()Variables Numéricas:
summary() o summarize() con funciones para estadísticos¿Sería preferible discretizar alguna variable continua?
Variables con alta dispersión o distribución asimétrica (logs?)
Valores inusuales (“atípicos” o “outliers”): no encajan en el patrón general
skimr (o modelsummary) y DataExplorerEl paquete janitor contiene herramientas para limpieza de datos
La biblioteca dlookr ofrece heramientas para diagnóstico y exploración de datos (entre otras), devolviendo data frame (para usar con kable())
library(dlookr) # en MacOS, puede pedir instalar XQuartz
Bank %>% diagnose()
Bank %>% describe() %>%
select(described_variables, skewness, mean, p25, p50, p75) %>%
filter(!is.na(skewness)) %>% arrange(desc(abs(skewness)))
Bank %>% group_by(education) %>%
describe(age, balance, campaign, pdays)
Bank %>% eda_report()
earn %>% eda_paged_report(output_format = "pdf")La variación describe el comportamiento dentro de una variable
La covariación describe relaciones entre variables: tendencia a que sus valores cambien juntos
Útil para formular modelos, que explican patrones complejos de los datos
¿qué explica la relación sugerida por el patrón de covariación?
¿cómo de fuerte es la relación?
¿otras variables pueden afectar a la relación? ¿varían por subgrupos?
Covariación implica que los valores de una variable se pueden predecir a partir de otra
1.- mediante el histograma o densidad (en el mismo gráfico o diferentes)
2.- mediante gráficos de caja: menos información pero más fácil de comparar
Si un grupo es mucho más pequeño, es difícil ver las diferencias
Se pueden necesitar reordenar las categorías de un factor, rotar los ejes, etc.
\[ E[Y|X]=\beta_0+\beta_1 X \Rightarrow \begin{cases} E[Y|X=0] &=\beta_0 \\ E[Y|X=1]&=\beta_0+\beta_1 \end{cases} \]
smoothers ayuda a apreciar un patrón en los puntosMuchas partes del AED son parcialmente “automatizables”: muchos paquetes tratan de facilitar esas partes
GwalkR, explore
DataMaid, smartEDA